尽管视觉问题答案取得了长足的进步(VQA),但当前的VQA模型严重依赖问题类型及其相应的频繁答案(即语言先验)之间的表面相关性来做出预测,而无需真正理解输入。在这项工作中,我们用相同的问题类型定义了培训实例,但与\ textit {表面上相似的实例}定义了不同的答案,并将语言先验归因于VQA模型在此类情况下的混淆。为了解决这个问题,我们提出了一个新颖的培训框架,该培训框架明确鼓励VQA模型区分表面上相似的实例。具体而言,对于每个培训实例,我们首先构建一个包含其表面上相似的对应物的集合。然后,我们利用所提出的区分模块增加了答案空间中实例及其对应物之间的距离。这样,VQA模型被迫进一步关注问题类型的输入的其他部分,这有助于克服语言先验。实验结果表明,我们的方法在VQA-CP V2上实现了最新性能。代码可在\ href {https://github.com/wyk-nku/distinguishing-vqa.git} {sickithing-vqa}中获得。
translated by 谷歌翻译
利用上下文信息是提高对话自动语音识别(ASR)的性能的直观想法。以前的作品通常采用公认的历史话语假设作为前面的背景,这可能会偏向于由于不可避免的历史认可错误而导致的当前公认假设。为了避免此问题,我们提出了一个音频文本跨模式表示器,以直接从先前的语音中学习上下文表示。具体而言,它由两个与模态相关的编码器组成,从语音和相应的文本中提取高级潜在特征,以及一个跨模式编码器,旨在学习语音和文本之间的相关性。我们随机掩盖每种模式的一些输入令牌和输入序列。然后,在交叉模式编码器上使用模态级别的CTC损失进行令牌错失或模态失误预测。因此,该模型不仅捕获了特定模式中的双向上下文依赖性,还捕获了不同模态之间的关系。然后,在训练对话ASR系统的训练期间,提取器将被冻结以提取上述语音的文本表示,而该表示形式则用作通过注意机制将其作为供应给ASR解码器的上下文。拟议方法的有效性在几个普通话对话中得到了验证,并且在MagicData数据集中,达到了最高的字符错误率(CER)最高16%。
translated by 谷歌翻译
临床前和临床领域中的结构化(表格)数据包含有关个人的有价值信息,有效的表格到文本摘要系统可以大大减少手动努力,以将该数据凝结到报告中。但是,实际上,该问题受到最先进的自然语言生成模型(包括T5,Pegasus和GPT-NEO)的数据稀疏性和无法产生准确可靠的输出的严重阻碍。在本文中,我们提出了一种新颖的桌面到文本方法,并通过新颖的两步结构解决这些问题,通过自动校正,复制机制和合成数据增强来增强这些问题。研究表明,所提出的方法从结构化数据中选择了显着的生物医学实体和值,以提高精度(最高0.13个绝对增加),以复制表格值,以生成相干和准确的文本以进行测定验证报告和毒理学报告。此外,我们还通过微调示例进行微调来展示提出的系统对新数据集的轻量重量改编。我们模型的输出在人类的场景中得到了人类专家的验证。
translated by 谷歌翻译
最近,自我监督的预先磨普已经实现了端到端(E2E)自动语音识别(ASR)的令人印象深刻的结果。然而,主要的序列到序列(S2S)E2E模型仍然很难充分利用自我监督的预训练方法,因为其解码器在声学表示上被调节,因此不能分开预先磨损。在本文中,我们提出了一种基于混合CTC /注意E2E模型的预磨削变压器(Preformer)S2S ASR架构,以充分利用预磨削的声学模型(AMS)和语言模型(LMS)。在我们的框架中,编码器初始化了Preprina(Wav2Vec2.0)。 Preformer在训练和推理期间利用CTC作为辅助任务。此外,我们设计了一个十字解码器(OCD),其放宽对声学表示的依赖性,以便可以用预净化的LM(DistilGPT2)初始化它。实验在Aishell-1语料库上进行,并在测试集上达到4.6±6 \%$ Character error rate(cer)。与我们的Vanilla混合CTC /注意力变压器基线相比,我们所提出的CTC /注意力的预浆料产生27亿美元的相对CER减少。据我们所知,这是第一个在S2S ASR系统中使用普里雷米和LM的第一项工作。
translated by 谷歌翻译
随着高通量实验技术的快速发展,可以从临床样品中产生不同类型的OMIC(例如基因组学,基因组,转录组织,蛋白质组学和代谢组学)数据。不同OMICS类型之间的相关性吸引了大量的研究兴趣,而STDUY对基因组宽的OMCIS数据转换(即,来自另一种类型的OMIC数据的一种类型的OMIC数据)几乎是空白的。生成的对策网络和变体是最先进的深度学习技术之一,在这里表现出巨大的成功,在此提出的图像到图像转换等。在这里,我们提出了奥贝纳人,a深度学习框架采用了生成的对抗网络的想法,实现了具有有前途的结果的Omics-to-Omics翻译。如在实验中所证明的那样,奥硝化能够忠于从DNA甲基化数据重建从DNA甲基化数据的基因表达谱。
translated by 谷歌翻译
目的:临床票据含有其他地方未存在的信息,包括药物反应和症状,所有这些都在预测急性护理患者的关键结果时非常重要。我们提出了从临床笔记中的表型作为一种捕获基本信息的方法的自动注释,这与通常使用生命体征和实验室测试结果的互补性,以预测重症监护单元(ICU)中的结果。方法:我们开发一种新颖的表型注释模型,用于注释患者的表型特征,然后用作预测模型的输入特征,以预测ICU患者结果。我们展示并验证了我们的方法对三个ICU预测任务进行实验,包括使用MIMIC-III数据集的医院死亡率,生理失效和超过24,000名患者的逗留时间。结果:掺入表型信息的预测模型实现0.845(AUC-ROC),以预测医院死亡率,0.839(AUC-ROC)的生理失代偿和0.430(Kappa),所有这些都始终胜过基线模型利用只有生命的迹象和实验室测试结果。此外,我们进行了彻底的解释性研究,表明表型在患者和队列水平方面提供了有价值的见解。结论:该方法表明表型信息是传统上使用生命体征和实验室测试结果的补充,改善了ICU中的结果的重要预测。
translated by 谷歌翻译
由于严重的阻塞,快速身体运动和复杂的相互作用引起的歧义,多人运动捕获可能具有挑战性。现有的框架以2D姿势估算为基础,并通过推理多相机观测值的外观,轨迹和几何一致性来对3D坐标进行三角测量。但是,由于观察角有限,2D联合检测通常不完整,并且由于观察角有限而导致错误的身份分配,这会导致噪音3D三角测量结果。为了克服这个问题,我们建议使用变压器探索骨骼运动的短距离自回归特征。首先,我们提出了一个自适应,身份感知的三角剖分模块,以重建3D关节并确定每个身份的缺失关节。为了产生完整的3D骨骼运动,我们提出了一个双掩模的自动编码器(D-MAE),该自动编码器(D-MAE)用骨骼结构和时间位置编码轨迹完成的骨骼结构和时间位置编码关节状态。 D-MAE的灵活掩蔽和编码机制使任意骨骼定义可以方便地在同一框架下部署。为了证明所提出的模型在处理严重的数据丢失方案方面的能力,我们为多人相互作用与严重遮挡的高临界性和挑战性运动捕获数据集。对基准和我们的新数据集的评估都证明了我们提出的模型的效率,以及其对其他最新方法的优势。
translated by 谷歌翻译
以前有几种基于神经网络的方法可以在盐和胡椒噪声方面具有出色的性能。但是,这些方法是基于一个假设,即盐和胡椒噪声的价值正好为0和255。在现实世界中,这并非如此。当值不同于0和255时,这些方法的结果急剧偏离。为了克服这种弱点,我们的方法旨在设计卷积神经网络以检测较大值范围内的噪声像素,然后使用过滤器修改过滤器像素值为0,这对进一步过滤非常有益。此外,另一个卷积神经网络用于进行转化和恢复工作。
translated by 谷歌翻译
深度学习(DL)模型为各种医学成像基准挑战提供了最先进的性能,包括脑肿瘤细分(BRATS)挑战。然而,局灶性病理多隔室分割(例如,肿瘤和病变子区)的任务特别具有挑战性,并且潜在的错误阻碍DL模型转化为临床工作流程。量化不确定形式的DL模型预测的可靠性,可以实现最不确定的地区的临床审查,从而建立信任并铺平临床翻译。最近,已经引入了许多不确定性估计方法,用于DL医学图像分割任务。开发指标评估和比较不确定性措施的表现将有助于最终用户制定更明智的决策。在本研究中,我们探索并评估在Brats 2019-2020任务期间开发的公制,以对不确定量化量化(Qu-Brats),并旨在评估和排列脑肿瘤多隔室分割的不确定性估计。该公制(1)奖励不确定性估计,对正确断言产生高置信度,以及在不正确的断言处分配低置信水平的估计数,(2)惩罚导致更高百分比的无关正确断言百分比的不确定性措施。我们进一步基准测试由14个独立参与的Qu-Brats 2020的分割不确定性,所有这些都参与了主要的Brats细分任务。总体而言,我们的研究结果证实了不确定性估计提供了分割算法的重要性和互补价值,因此突出了医学图像分析中不确定性量化的需求。我们的评估代码在HTTPS://github.com/ragmeh11/qu-brats公开提供。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译